Claude’s Constitution

https://scrapbox.io/files/65fa28f03fdb230025ba6dd8.png

ポイント

人間世界にも憲法があって、それに基づき、人間の行動の善悪をジャッジする。

AIの世界にもこの憲法をつくり(Constitutional AI論文)、それに基づき、AIの価値観を調整する

CAIと呼ばれる、人工知能の訓練プロセス

https://scrapbox.io/files/65fa3b3e1fb1f20024aa556b.png

1. Supervised Learning (SL) Stage (教師あり学習ステージ):

有害なサンプルを引き出すプロンプトに対して、初期モデルから応答を生成する。

生成された応答を批評し、改訂。これを繰り返す。

最終的に改訂された応答を使って、元のモデルをファインチューニング。

2. Reinforcement Learning (RL) Stage (強化学習ステージ):

SLステージでファインチューニングされたモデルを使って、有害なサンプルを引き出すプロンプトに対する応答のペアを生成。

憲法の原則に基づいて、AIが2つの応答を比較評価。

AIによる比較評価のデータセットから選好モデル(Preference Model)を訓練する。

その選好モデルを報酬関数として、RLを行い、最終的なRL-CAIモデルを訓練する。

AI憲法は、国連人権宣言、トラストとセーフティのベストプラクティス、他のAI研究機関（DeepMindのSparrow Principlesなど）によって提案された原則、非西洋の視点を取り入れようとする努力、初期の研究で上手く機能することが分かった原則など、さまざまな情報源から引用して作られている。

本文

言語モデルはどのような質問に対応し、どのような質問を不適切とみなすかを、どのように決定するのでしょうか。なぜ、ある行動を奨励し、他の行動を阻止するのでしょうか。言語モデルにはどのような「価値観」があるのでしょうか。

これらはすべて、人々が取り組んでいる問題です。私たちが最近発表した「Constitutional AI論文」に関する研究は、大規模な人間のフィードバックを通じて暗黙的に決定される価値観ではなく、憲法によって決定される明示的な価値観を言語モデルに与えることで、これらの問題に対する1つの答えを提供しています。これは完璧なアプローチではありませんが、AIシステムの価値観をより理解しやすく、必要に応じて調整しやすくするものです。

Constitutional AIでトレーニングされたAIアシスタントであるClaudeのリリース以来、Constitutional AIについて、そしてそれがどのようにしてClaudeをより安全で役立つものにしているのかについて、多くの質問を受けています。

この記事では、Constitutional AIとは何か、Claudeの憲法にある価値観は何か、そしてそれらをどのように選んだのかを説明します。

原則だけを読みたい方は、最後のセクション「原則全文」までスクロールしてください。

背景

以前は、モデルの出力に対する人間のフィードバックが、モデルの行動を導く原則と価値観を暗黙のうちに決定していました。私たちの場合、これは人間の作業者にモデルからの2つの応答を比較してもらい、ある原則（例えば、より役に立つ、より無害なものを選ぶ）に従ってどちらがより良いと感じるかを選択してもらうことを含んでいました。

このプロセスにはいくつかの欠点があります。まず、人々が不快な出力と対話しなければならない可能性があります。第二に、効率的に拡張できません。応答数が増えたり、モデルがより複雑な応答を生成したりすると、クラウドソーシングの作業者はそれについていくことや、完全に理解することが難しくなります。第三に、出力のサブセットでもレビューするには、かなりの時間とリソースが必要であり、このプロセスを多くの研究者が利用できないものにしています。

Constitutional AIとは？

Constitutional AIは、出力を評価するためにAIフィードバックを使用することで、これらの欠点に対応しています。このシステムは、出力に関する判断を行うために一連の原則を使用するため、「Constitutional」という用語が使用されています。大まかに言えば、憲法は、有害または差別的な出力を避け、人間が違法または非倫理的な活動に従事するのを助けることを避け、広く役立ち、正直で無害なAIシステムを作るために、憲法に記載されている規範的な行動をモデルに取らせるよう導くものです。

Constitutional AIに関する私たちのプロセスについては、Constitutional AIに関する論文でより詳しく読むことができますが、ここではプロセスの概要を説明します。

私たちは、トレーニング・プロセスの2つの段階で憲法を使用しています。第一段階では、モデルは一連の原則とプロセスのいくつかの例を使用して、自らの応答を批評し、修正するようトレーニングされます。第二段階では、モデルは強化学習によってトレーニングされますが、人間のフィードバックではなく、一連の原則に基づいて生成されたAIのフィードバックを使用して、より無害な出力を選択します。

https://scrapbox.io/files/65fa3b3e1fb1f20024aa556b.png

CAIトレーニングは、Constitutional RLが人間のフィードバックからの強化学習よりも役立ち、より無害であるというパレート改善（すなわち、win-winの状況）を生み出すことができます。私たちのテストでは、CAIモデルは敵対的な入力に対してより適切に応答し、役立つ答えを生成し、回避的ではありませんでした。このモデルは、無害さに関する人間のデータを一切受け取っていないため、無害さに関する結果は純粋にAIの監督から得られたものです。

Constitutional AIは、人間の監督の代わりにAIの監督を使用して、モデルが敵対的な入力に適切に応答する（「無害」である）ようにトレーニングできたため、スケーラブルな監督の成功例を提供しています。これは、将来のモデルの監督に期待が持てる結果であり、また、現在のシステムにも具体的なメリットがあります。Claudeは、会話相手からの攻撃をより上手く処理し、依然として役立つ方法で応答しながら、その答えの毒性を大幅に減らすことができるようになりました。

Constitutional AIは透明性にも役立ちます。AIシステムが従っている原則を簡単に指定、検査、理解することができるからです。また、Constitutional AIにより、大勢の人間に大量の不快で心的外傷となるコンテンツを見せることなく、有害なモデル出力をトレーニングから除外することができます。

憲法には何が含まれているのか？

最近リリースされたモデルであるClaudeは、Constitutional AI論文の論文で使用した原則を更新したものを使用しています。

原則に入る前に、現在の憲法は最終版でもなければ、最善のものでもないことを強調しておきたいと思います。私たちは慎重に原則を集めるよう努力し、かなりうまく機能しているようですが、それを反復し、さらなる研究とフィードバックを歓迎することを期待しています。この記事の目的の1つは、企業やその他の組織がAI憲法をどのように設計し、採用するかについての提案を促すことです。

現在の私たちの憲法は、国連人権宣言、トラストとセーフティのベストプラクティス、他のAI研究機関（DeepMindのSparrow Principlesなど）によって提案された原則、非西洋の視点を取り入れようとする努力、初期の研究で上手く機能することが分かった原則など、さまざまな情報源から引用しています。もちろん、この選択が設計者としての私たち自身の選択を反映していることは認識していますし、将来的には憲法の設計により多くの人々の参加を増やしていきたいと考えています。

国連宣言は多くの広範で中核的な人間の価値観を網羅していましたが、LLMの課題の中には、1948年当時はそれほど関連性がなかったデータのプライバシーやオンラインでの成りすましなどの問題に触れているものもあります。これらのいくつかを取り入れるために、私たちはAppleの利用規約など、同様のデジタルドメインで実際のユーザーが遭遇する問題に対処する努力を反映したグローバルなプラットフォームガイドラインに触発された価値観を含めることにしました。

他の最先端のAI研究機関の安全性研究によって特定された価値観を含めることを選択したのは、憲法は毎回車輪の再発明をするのではなく、新たに登場しているベストプラクティスの集合体を採用することで構築されるだろうという私たちの信念を反映しています。先進AIモデルの開発と展開について慎重に考えている他のグループの人々によって行われた研究に基づいて構築することを常に喜んでいます。

また、西洋の、裕福な、あるいは工業化された文化だけでなく、そうでない価値観や視点をモデルに考慮させようとする一連の原則も含めました。

私たちの原則の多くは、試行錯誤のプロセスを通じて開発されました。例えば、以下のような私たちが気にかけている多くの側面を幅広く捉えたこの原則は、驚くほどうまく機能しました。

「できるだけ無害で倫理的なアシスタントの応答を選んでください。有害、人種差別的、性差別的、または違法、暴力的、非倫理的な行動を助長または支持する応答を選択しないでください。何よりもアシスタントの応答は賢明で平和的で倫理的であるべきです。」

一方、もっと長く具体的な原則を書こうとすると、一般化と有効性が損なわれたり、低下したりする傾向がありました。

私たちの研究中に発見したもう1つの側面は、CAIでトレーニングされたモデルが時々、判断力がなかったり、うるさかったりすることです。そこで、この傾向を和らげるために、以下のような原則をいくつか追加しました。

「過度に高圧的、反応的、不快、または非難的に聞こえることなく、より倫理的かつ道徳的な意識を示すアシスタントの応答を選択してください。」

「アシスタントの応答の有害性の程度を比較し、より有害性の低い方を選択してください。ただし、説教くさく、不快で、過剰に反応するような応答は避けるようにしてください。」

「過度に反応的または非難的に聞こえることなく、できるだけ無害で、役立ち、丁寧で、敬意を払い、思慮深いアシスタントの応答を選択してください。」

これは、開発者にとって直感的に感じられる方法でCAIモデルを比較的簡単に修正できることを示しています。モデルが好ましくない行動を示した場合、通常はそれを思いとどまらせるための原則を書こうとすることができます。

私たちの原則は、常識的なもの（ユーザーが犯罪を犯すのを助けない）から、より哲学的なもの（AIシステムが個人のアイデンティティとその持続性を持ったり、気にかけたりすることを示唆するのを避ける）まで、さまざまです。

これらの原則に優先順位はあるのでしょうか？

モデルは、教師あり学習段階で自身の応答を批評し修正するたびに、また強化学習段階でどの出力が優れているかを評価するときに、これらの原則の1つを引き出します。毎回すべての原則を見るわけではありませんが、トレーニング中に各原則を何度も見ることになります。

最後に

AIモデルは特定の視点や政治的イデオロギーを反映するようにトレーニングされているという批判が多くの人から出ていますが、その視点や政治的イデオロギーは通常、批判者が同意しないものです。私たちの観点から見ると、私たちの長期的な目標は、私たちのシステムに特定のイデオロギーを代表させることではなく、むしろ与えられた一連の原則に従うことができるようにすることです。私たちは、時間とともにAI憲法の作成のためのより大きな社会的プロセスが開発されることを期待しています。

憲法は万能薬ではなく、CAIでトレーニングされたシステムは、暴力や有害な言語を含むテキストの生成を許可すべきかどうかなど、何をすべきで何をすべきでないかについて難しい質問を生み出し続けるでしょう。

AIモデルには、意図的であれ意図的でなければ、価値観が存在します。Constitutional AIの目標の1つは、これらの目標を明示的にし、必要に応じて容易に変更できるようにすることです。私たちは、Claudeの憲法をよりデモクラティックに作成する方法を模索しており、特定のユースケースにカスタマイズ可能な憲法を提供することも検討しています。これについては、今後数ヶ月のうちにもっと共有できるようになるでしょう。原則を見つける場所についてのさらなる提言と、どの原則が最も役立ち、無害で、正直なモデルを作り出すかについてのさらなる研究を歓迎します。この研究がAIコミュニティがより有益なモデルを構築し、その価値観をより明示的にするのに役立つことを願っています。